DeComFL: Federated Learning with Dimension-Free Communication

❏ 書誌情報／著者

著者：Zhe Li、Bicheng Ying、Zidong Liu、Chaosheng Dong、Haibo Yang

論文名：DeComFL: Federated Learning with Dimension-Free Communication

掲載ワークショップ：International Workshop on Federated Foundation Models in Conjunction with NeurIPS 2024

❏ この論文を1文で要約

連合学習（FL）におけるモデル次元に依存する通信コストを、Zeroth-order Optimizationを用いて次元に依存しないO(1)に劇的に削減する新しいアルゴリズムDeComFLを提案

❏ 主張・新規性（どこが革新的？何を解決？）

FLにおける主要な課題である、モデル次元に線形にスケールする高い通信コストを解決

クライアントとサーバー間の通信を、モデルパラメータ全体ではなく、定数個のスカラー値とランダムシードのみに限定

アップリンクとダウンリンクの両方で、通信コストをO(d)から**次元フリーなO(1)**に削減するという革新性

❏ 既存研究との違い

既存の通信効率化FL手法（圧縮やローカル更新）は、ラウンドごとのクライアント通信コストが依然としてモデル次元に依存

Zeroth-order Optimizationを用いるFedZOやBAFFLEも、通信コストはO(d)または少なくともダウンリンクはO(d)のまま

DeComFLは、Zeroth-order勾配の特性を応用し、送受信する情報をスカラー値とシードに分解することで、完全に次元フリーな通信を実現

❏ 技術・手法のポイント

Zeroth-order Optimizationの勾配がスカラー値と摂動ベクトルに分解できる特性を活用

クライアントは過去の勾配スカラーとランダムシードからローカルモデルを再構築 (ClientRebuildModel)

クライアントはローカル更新（ClientZOLocalUpdate）を実行し、計算された勾配スカラーのみをサーバーに送信

ローカル更新後にモデルを更新前に戻す、または差分を補償することでモデルの同期を維持

サーバーはクライアントの最終更新ラウンド、勾配スカラー履歴、ランダムシードの履歴を保持する必要がある

複数の摂動を用いることで、勾配推定の分散を減らし性能を向上させることが可能

プライベートなシードシフト関数を導入することで、クライアント側のモデル進化に関するサーバーの推測を防ぎプライバシーを強化可能

❏ どう検証しているか（データ・実験・評価方法）

LLMのファインチューニングタスクで、OPT-125MとOPT-1.3Bモデルを用いて有効性を検証

SST-2, CB, WSC, WIC, RTE, BoolQなど、NLPタスクの各種データセットを使用

FedZO（マルチエージェント）およびMeZO（シングルエージェント）と比較評価

評価指標はテスト精度と通信コスト

実験結果は、**通信コストがモデルサイズに関わらずほぼ一定（約0.1MB〜1.8MB）**であることを示し、次元フリー通信を実証

精度は既存手法と同等またはそれ以上を達成

収束に必要なラウンド数は、モデル次元より大幅に少ない数千ラウンド

❏ 議論・今後の課題・著者自身の限界認識

理論的に、非凸関数における収束率O(√d/√mPKR)を達成し、クライアント数、ローカルステップ数、摂動数に対する線形スピードアップを示す

ローカルステップ数と摂動数は、学習率に対して相反する影響を持つ

サーバーおよびクライアント側のメモリ消費の最適化の余地がある

長期間サンプリングされないクライアントのモデル再構築コストが増大する可能性があり、サーバーモデルの直接プルが有利な場合がある

提案アルゴリズムは最も単純なケースであり、他の高度なZO最適化手法への拡張が可能

ZOOは勾配推定の分散が大きいという課題があり、これが収束時間や学習率の制約に影響する可能性がある